Набор в Инженерно-математическую школу НИУ ВШЭ и VK
Открыт набор в проекты ИМШ
для студентов технических направлений НИУ ВШЭ
Инженерно-математическая школа — совместный образовательный проект VK и НИУ ВШЭ, где студенты работают над реальными задачами под руководством экспертов VK и научных сотрудников университета.
Стартовал набор в мастерские по прикладному искусственному интеллекту, безопасной разработки и эксплуатации высоконагруженных систем, по сервисам и платформам ИИ Инженерно-математической школы НИУ ВШЭ и VK: 12 новых проектов, реальные задачи, участие в конференциях и спецпроектах VK - без отрыва от учебы.
Чтобы получить тестовое задание, зарегистрируйтесь. Без регистрации задание не будет принято к рассмотрению.
— 20 часов в неделю занимает работа в мастерских;
— Еженедельно или раз в две недели, в зависимости от проекта и мастерской, проходят созвоны или встречи с руководителем проекта или мастерской, а также с экспертом из VK — куратором проекта;
— Два раза в год команды презентуют итоги работы на демо-днях и рассказывают о своих планах до следующего демо.
Даты этапов отбора
-
Старт приема заявок и выдача тестовых заданий
13 марта, 10:00
-
Окончание приёма заявок и тестовых заданий
29 марта, 23:59
-
Проведение собеседований
с 30 марта
-
Оглашение результатов
6 апреля
-
Вводная встреча для новых участников
Начало апреля
В какие проекты идет набор?
Мастерская безопасной разработки и эксплуатации высоконагруженных систем
Руководитель мастерской
Платформа для проектной кооперации студентов различных учебных организаций
Проект направлен на разработку платформы для проектной кооперации студентов на основе их профессиональной направленности и имеющихся навыков. Участники проекта будут работать над созданием или переработкой имеющейся платформы. При построении платформы участники столкнутся с задачами разных форматов от backend архитектуры до проработки UX решений.
В проект приглашаются участники по направлениям frontend, backend и дизайн. Обратите внимание, что в зависимости от выбранного направления тестовое задание будет отличаться.
Цель проекта: Разработка платформы для проектной кооперации студентов различных учебных организаций с фокусом на геймдев-направлении и потенциалом масштабирования.
Подробнее
Исследование методов оценки устойчивости LLM моделей и агентских систем на их основе к некорректным входным воздействиям
Проект направлен на исследование методов оценки устойчивости агентских систем и больших языковых моделей к некорректным, противоречивым и состязательным входным воздействиям. В рамках работы предполагается формализация типов некорректных запросов, разработка критериев поведенческой устойчивости и проведение сравнительного экспериментального анализа поведения моделей и агентных архитектур в условиях варьируемого входного контекста. Будет проведен комплексный анализ факторов, влияющих на стабильность ответов, согласованность действий и сохранение заданной политики поведения при многошаговом взаимодействии. Будет проведено исследование способов защиты агентских систем и больших языковых моделей от атак при помощи состязательных входных воздействий. Результатом проекта станет формализованная методика оценки и сравнительный анализ устойчивости исследуемых систем.
Цель проекта: Исследование и экспериментальное обоснование методов количественной оценки устойчивости агентских систем и больших языковых моделей к некорректным входным воздействиям.
Подробнее
Инструмент контроля безопасности ML моделей и датасетов
В рамках проекта должен быть разработан инструмент для оценки безопасности моделей машинного обучения и связанных с ними датасетов. С использованием нескольких открытых программных решений (OSS) будет реализован процесс дедупликации результатов, что позволит эффективно выявлять уязвимости и потенциальные угрозы.
Цель проекта — создать интегрированный ресурс, который обеспечит разработчиков необходимыми инструментами для анализа и повышения безопасности их ML-систем.
Проект требует знаний в области ML, программирования и кибербезопасности, что позволит развивать навыки сразу в нескольких направлениях.
Подробнее
Исследование методов атак и защиты предиктивных моделей ИИ
Проект посвящен исследованию и разработке открытых инструментов для обеспечения безопасности моделей машинного обучения (ML) и их датасетов. В рамках проекта будут реализованы методы проверки безопасности ML-моделей, включая анализ уязвимостей и векторов атак на платформах, таких как huggingface.co. Также будет составлена сравнительная таблица существующих инструментов с оценкой их эффективности в выявлении уязвимостей и защите от атак.
Цель проекта — помочь разработчикам и исследователям лучше понимать риски безопасности в машинном обучении и выбирать подходящие инструменты для защиты систем.
Подробнее
Мастерская по прикладному искусственному интеллекту
Руководитель мастерской
Learnable-frontend вместо log-mel в ASR (обучаемая прослойка)
Большинство современных систем автоматического распознавания речи используют фиксированные спектральные признаки — log-mel спектрограммы, изначально спроектированные под особенности человеческого слуха. Такой “жёсткий” фронтенд не учитывает специфику конкретных доменов (телефония, стримы, шумные пользовательские записи) и может выбрасывать информацию, потенциально полезную нейросетевой модели. Развитие end-to-end ASR привело к появлению обучаемых аудио-фронтендов, которые заменяют классический расчёт log-mel набором дифференцируемых фильтров и операций, оптимизируемых вместе с основной моделью
Проект направлен на разработку и исследование learnable-frontend слоя для существующей RNN-T системы (Conformer-encoder + языковой декодер), способного заменить log-mel, повысить качество распознавания и устойчивость к шумам/каналам при сопоставимых вычислительных затратах. Участники изучат существующие подходы (обучаемые фильтробанки, Sinc-фильтры, LEAF-подобные архитектуры), реализуют один или несколько вариантов фронтенда, интегрируют их в пайплайн ASR и проведут серию экспериментов на внутренних и открытых датасетах. Особое внимание будет уделено сравнению качества, робастности и стоимости инференса по сравнению с лог-мелом, а также практической интеграции решения в текущую инфраструктуру.
Цель проекта: Исследовать и разработать обучаемый аудио-фронтенд, который может заменить стандартный log-mel frontend в существующей ASR-модели, обеспечивая улучшение качества и/или устойчивости к шумам и каналам без существенного роста вычислительных затрат; подготовить прототип и рекомендации по внедрению в промышленные сервисы VK.
Подробнее
Streaming-контекст для декодера в ASR (stateful inference)
Современные системы автоматического распознавания речи всё чаще работают в стриминговом режиме: пользователю важна не только точность транскрипции, но и минимальная задержка при обработке длинных диалогов, звонков и голосовых сообщений. При этом модели типа RNN-Transducer с мощным языковым декодером (LLM-подобная NanoLlama) часто обучаются в оффлайн-режиме на полном контексте, а на продакшен-инференсе получают аудио небольшими окнами (чанками). Это приводит к разрыву текстового контекста между окнами, ухудшению качества на длинных высказываниях и нестабильному поведению при паузах, смене говорящего и обрывках соединения.
Проект направлен на разработку и исследование stateful-инференса для декодера: нужно научиться аккуратно хранить и переносить текстовый контекст (состояния декодера, историю токенов, KV-кэш) между чанками аудио, при этом корректно обрабатывать тишину, смену спикеров и границы сессий. Участники реализуют прототип стримингового пайплайна для существующей RNN-T модели (Conformer-encoder + NanoLlama-decoder), экспериментируют с различными стратегиями управления состоянием, измеряют влияние на качество распознавания и задержку, а также подготавливают рекомендации по интеграции решения в реальные продукты (голосовой поиск, распознавание звонков, онлайн-транскрибация).
Цель проекта: Разработать и исследовать методы управления контекстом в стриминговом декодере ASR, позволяющие сохранить или улучшить качество распознавания на длинных аудио-сессиях при ограниченной задержке и стабильной работе в условиях тишины, смены говорящего и реальных сетевых сценариев; подготовить прототип stateful-инференса, пригодный для интеграции в производственные сервисы VK.
Подробнее
Мастерская по сервисам и платформам ИИ
Руководитель мастерской
Разработка интеллектуальной рекомендательной системы для платформы VK Play
Проект направлен на разработку и внедрение алгоритмов машинного обучения для системы персонализированных рекомендаций игр, стримов и околоигрового контента на платформе VK Play. Участники будут работать с реальными массивами данных о поведении пользователей (логи активности, транзакции, история игровых сессий), пройдя полный цикл разработки продукта: от создания надежного baseline-решения до внедрения сложных нейросетевых моделей ранжирования и запуска A/B-тестов на живой аудитории.
Цель проекта: Разработка современного высокопроизводительного алгоритма для решения задачи персонализации выдачи контента и кросс-селла продуктов, отвечающего следующим критериям: увеличение метрик вовлеченности (Retention Rate, Time Spent), рост конверсии в покупку/установку приложения (CTR, CR), а также способность системы выдерживать высокие нагрузки (Highload) с задержкой ответа (latency) не более 100 мс.
Побробнее
Разработка методов дистилляции энкодерных трансформерных языковых моделей в вычислительно-эффективные архитектуры нейронных сетей
В рамках проекта предлагается исследовать перенос знаний (дистилляцию) из сильных энкодерных моделей с открытыми весами (в качестве примеров можно упомянуть ModernBERT и семейства Qwen Embedding) в архитектуру DANet / DenseAttention и при необходимости – в альтернативные архитектуры с линейной или субквадратичной вычислительной сложностью.
DenseAttention / DANet (https://openreview.net/forum?id=RttNumxC1t)– это практичная замена и упрощение трансформерного механизма внимания / блока, которое делает архитектуру существенно более дружелюбным к реальному продакшену: модель остаётся концептуально простой и легко встраиваемой, при этом демонстрирует качество наравне с трансформерами, быстро работает на широком спектре устройств, включая CPU-only системы и более старые GPU, не требуя низкоуровневого кода. Архитектура имеет линейную вычислительную сложность, что является важным преимуществом для длинных последовательностей. В совокупности это даёт шанс дистиллировать качество от сильных трансформерных энкодеров в форму, которую проще и дешевле разворачивать и масштабировать в гетерогенной инфраструктуре.
Цель проекта: Разработка и экспериментальная валидация методов дистилляции/переноса знаний из современных энкодерных трансформерных моделей с открытыми весами в вычислительно-эффективные архитектуры, ориентированные на ускорение и упрощение вычислений на гетерогенной инфраструктуре и на улучшение практичности работы с длинными последовательностями.
Подробнее
FAQ
Кто может принимать участие в наборе на проекты?
Как подготовиться к поступлению?
Какие мне необходимы навыки, чтобы успешно пройти отбор и работать над проектом?
Возьмут ли меня после работы над проектом на работу в VK?
В проект могут попасть только студенты московского кампуса?
Могу ли я совмещать выполнение проекта с работой?
Могу ли я подать заявку на несколько проектов?
Все вопросы по отбору в Инженерно-математическую школу направляйте на почту info_pish@hse.ru